随着基于扩散的[12,41]文本到图像生成技术的进步,一系列单条件可控的生成框架(例如ControlNet [58],T2-IADAPTER [30],IP-ADAPTER [57]和INSTANTID [46]和INTSTANTID [46]已经扩展了控制信号的范围,该框架已扩展了从字体提示中扩展了控制信号的范围。它允许用户控制生成的图像的更详尽的方面,例如布局,样式,特征等。这些常规方法是专门为UNET [37]主骨的主干(LDM)[36]设计的,具有专用的控制网络。此外,最近的一些方法,例如Imini-Control [44],将控制信号集成到扩散变压器(DIT)[7,22]体系结构中,它们与LDM中的UNET相比表现出了出色的性能。尽管上述方法达到了有希望的单条件性能,但多条件可控生成的挑战仍未解决。以前的多条件生成方法(例如Uni-Control [34]和Unicontrolnet [59]通常依赖于处理诸如Chany或Depth Maps之类的空间条件,并且无法适应受试者条件,从而导致适用的情况有限。尽管最近提出的CTRL-X [26]具有控制结构和外观,但其性能并不令人满意,并且仅支持有限的条件组合。因此,统一框架需要以多条件生成的方式包含这些生成任务。通过集成多个pre-此外,我们假设许多现有的生成任务可以被视为多条件的一代,例如虚拟试验[5,16],对象插入[3,50],样式传输[14,32,51],空间分配的自定义[19,20,24,26]等该框架应确保与所有输入约束的一致性,包括主题ID保存,空间结构对齐,背景连贯性和样式均匀性。为了实现这一目标,我们提出了Unicombine,这是一个提供多个关键范围的能力和通用框架:首先,我们的框架能够同时处理任何条件组合,包括但不限于文本提示,空间图和下图图像。具体来说,我们引入了一种新颖的条件MMDIT注意机制,并结合了可训练的DeNoisis-Lora模块,以构建无训练和基于培训的版本。
主要关键词